论文推荐|[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测(有源码)
本文简要介绍CVPR 2021录用论文“Fourier Contour Embedding for Arbitrary-ShapedText Detection”的主要工作。该论文提出了一种基于傅里叶变换的任意形状文本框的表示方法和预测该文本框表示的算法流程,从而提高了自然场景文本检测中对于高度弯曲文本实例的检测精度。论文代码被商汤科技的OpenMMLab收录,近期将在其MMOCR项目中开源:https://github.com/open-mmlab/mmocr。
一、研究背景
二、原理简述
图1是本文提出的FCENet网络结构,采用了典型的Backbone+FPN作为主干网络,其FPN输出的特征图会经过共享的预测头进行分类预测和回归预测。在分类分支中(如绿框上半部分所示),网络通过预测文本区域和文本中心区域概率图并将其相乘,得到属于文本分类的得分图;在回归分支中(绿框下半部分所示),会直接预测每个像素位置上的傅立叶特征向量。在后处理过程(如蓝框所示),算法通过在具有高于得分阈值的区域上,对傅里叶特征向量进行逆傅里叶变换(IFT) 重建文本轮廓,并使用非极大值抑制(NMS)滤除重合度高的文本实例。
三、实验结果及分析
在没有采用额外数据集预训练的情况下,FCENet在任意形状场景文字检测标准数据集CTW1500和TotalText上取得了SOTA的效果,并在多方向场景文字检测数据集ICDAR2015上取得了具竞争性的效能。
图2-4定性地展示了本文提出的FCE表征方法对文本的拟合效果及最终的检测效果对比。结果表明,FCE具有较强的不规则文本表征能力,FCENet在很多情况下都能产生比其他方法更优的不规则文字检测效果。
四、总结
五、相关资源
FCENet论文地址:
https://arxiv.org/pdf/2104.10442FCENet开源代码:https://github.com/open-mmlab/mmocr(代码被商汤科技的OpenMMLab收录,近期将在其MMOCR项目中开源)
参考文献
[1] Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin,and Liangwei Wang. Abcnet: Real-time scene text spotting with adaptive bezier-curve network. In Proc. CVPR, pp. 9809–9818, 2020.
[3] Fangfang Wang, Yifeng Chen, Fei Wu, and Xi Li. Textray:Contour-based geometric modeling for arbitrary-shaped scene text detection. In Proc.ACM MM, pp. 111–119, 2020.
[4] Yuxin Wang, Hongtao Xie, Zheng-Jun Zha, Mengting Xing,Zilong Fu, and Yongdong Zhang. Contournet: Taking a further step toward accurate arbitrary- shaped scene text detection. In Proc. CVPR, pp.11753–11762, 2020.
[5] Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, and Xiang Bai. Real-time scene text detection with differentiable binarization. In Proc.AAAI, pp. 11474–11481, 2020.
[6] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection, In Proc. CVPR, pp. 2117-2125, 2017.
[7] Zhu, Y., Chen, J., Liang, L., Kuang, Z., Jin, L., Zhang, W. (2021). Fourier Contour Embedding for Arbitrary-Shaped Text Detection. arXiv preprint arXiv:2104.10442.
原文作者:Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin, Wayne Zhang
撰稿:简晟,陈健勇编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们: